Нейрофизиология дипфейка
Не позднее 2019 года была разработана нейронная сеть, которая легла в основу сайта «This person does not exist» («Этого человека не существует»). Открываете страницу, обновляете её и видите сколько угодно цветных портретов. Парадокс в том, что все эти лица синтетические. Алгоритмы такого рода называются «генеративно-состязательными нейронными сетями» (GAN). В каждой системе GAN две нейронные сети, которые конкурируют друг с другом. Одна из них генерирует фейковые изображения (в данном случае — лица) на основе огромного множества заложенных в неё фотографий, а другая пытается отличить реальные изображения от продуктов работы первой. Постепенно первая сеть начинает выдавать настолько реалистичные имитации, что вторая уже не отличает фейк от подлинника. При злонамеренном использовании этой технологии и получается дипфейк.
Естественно, дипфейк наиболее опасен для публичных персон, фото и видео с участием которых в большом количестве выложено в Интернете, и этот запас данных пополняется ежемесячно или даже ежедневно. Борьба с дипфейками — это актуальная и высокобюджетная сфера исследований на стыке нейрофизиологии и информатики.
В 2023 году учёные из Сиднейского университета под руководством Томаса Карлсона обнаружили, что мозг успешно отличает дипфейки от реальных изображений, даже когда сам человек этого не осознаёт. По данным электроэнцефалограммы характерное «срабатывание» нейронов на дипфейк наблюдалось в 54% случаев, тогда как испытуемый верно указывал на подделку лишь в 37% случаев. При этом большинство ложноположительных результатов при сознательном угадывании «фейк-не фейк» приходилось на слегка гиперреалистичные лица. По-видимому, человек считает их настолько натуральными и/или красивыми, что просто не доверяет подсознанию (интуиции), подсказывающему, что перед ним подделка.
На электроэнцефалограмме разница в реагировании на настоящие и поддельные лица наблюдалась примерно через 170 миллисекунд после того, как лицо демонстрировалось на экране. При этом в электрическом сигнале, поступающем от мозга, фиксировался явственный компонент, названный N170. По-видимому, он соответствует тому этапу обработки изображения, при котором мозг оценивает расстояния между ключевыми точками на лице и соотношения в расположении глаз, носа и рта.
В 2022 году специалисты Лондонского университета провели не менее интересное исследование, призванное выяснить, как распространение фейковых лиц влияет на поведение пользователя в онлайн-среде. Если человеку сообщалось, что среди предложенных фотографий подмешаны искусственные лица, то испытуемый рассматривал выборку гораздо придирчивее, чем обычно, но всё равно ошибался чаще, чем без такого предупреждения. В целом менее привлекательные лица воспринимались как более реалистичные — вероятно, мы слишком привыкли к тому, что в Интернете люди постоянно пытаются приукрасить и отредактировать свои снимки, и в этом угадывается фальшь. Тем не менее, настройки нейронной сети могут специально выставляться так, чтобы в дипфейке подчёркивались «непарадные» черты человека. Например, взятые из Интернета образцы, послужившие основой для дипфейка, могут искусственно слегка состариваться, чтобы человек воспринимался «без фотошопа». Может подчёркиваться неровность или неаккуратность кожи, признаки усталости (мешки под глазами). Таким образом, обмануть нейронную сеть становится всё сложнее, поскольку она тяготеет не к идеальным, а к типичным образам. Но по мере совершенствования генеративно-состязательных нейронных сетей дипфейки воспринимаются как всё более привлекательные. Это явление может означать, что мы практически пересекли «зловещую долину». Этот термин (uncanny valley) предложил в 1972 году классик геймдизайна и робототехники Масахиро Мори, заметивший, что чем реалистичнее внешний вид и/или поведение робота или куклы, тем более жутким этот объект кажется. Вот знаменитый график, характерный минимум в правой части которого получил название «зловещая долина»
По-видимому, современные нейронные сети уже практически добрались до её правого склона. Искусственные лица перестают внушать страх, брезгливость или даже подозрение (вероятно, из-за «насмотренности» в Интернете, расфокусировки внимания, а также из-за того, что мы всё менее длительно контактируем с реальными людьми). Подсознательное распознавание реальных лиц пока подводит нас меньше.
Тем интереснее ещё более свежее исследование, проведённое в 2024 году в университете Цюриха. Постдок Клаудиа Розвандовитц и её коллеги проверили, как воспринимаются синтезированные нейронной сетью голоса в сравнении с реальными. Действительно, для дипфейка достаточно подделать голос жертвы и затем приписать человеку слова, которых он не произносил. Оказывается, с распознаванием фейковых голосов человек справляется гораздо лучше, чем с распознаванием лиц: 25 испытуемых верно указывали синтетический голос в 2/3 всех случаев. Синтетический голос воспринимается как болезненный или неискренний. Судя по данным электроэнцефалограммы, эта функция реализуется в прилежащем ядре (nucleus accumbens) — подкорковой структуре, которая участвует в работе мезолимбического пути и в системе подкрепления и вознаграждения. Кроме того, отличать оригинал от фейка помогает слуховая кора, расположенная в височной доле. По-видимому, она улавливает шумы и искажения, нехарактерные для реального голоса.
Парадоксальным образом нам повезло, что дипфейк быстро превратился в настолько острую проблему с точки зрения защиты приватности и конфиденциальности данных. По-видимому, мы успеваем изучить и во многом купировать это опасное явление, пока ещё не слишком развиты ни сами дипфейки, ни генерирующий их искусственный интеллект. Когда будут картированы зоны мозга, отвечающие за узнавание дипфейков, эффективность этих зон не составит труда повысить при помощи ноотропов или нейроимплантов. С другой стороны, человек зачастую сам рад обманываться, поэтому невольно даёт нейронной сети всё новые шансы преуспеть в этой состязательной игре.